如何解决MSE Nacos实例连接失败问题?

本文介绍如何解决MSE Nacos实例连接失败问题。

问题现象

当程序连接MSE Nacos出现连接失败问题时,可能会出现如下几种报错。

  • Client not connected,currentstatus:STARTING

  • Client not connected,currentstatus:UNHEALTHY

  • no available server, currentServerAddr: xxxxx

  • Connection refused

问题原因

可能是如下几种原因,导致程序连接MSE Nacos出现连接失败。

  • 应用程序的域名或端口配置错误。

  • 客户端版本过高,但MSE实例不是专业版。

  • Nacos容量不足。

  • 访问Nacos集群时,网络异常。

  • 使用VPN导致的网络问题。

  • 客户端监控存在高CPU使用率、频繁FullGC等问题。

解决方案

  1. 在错误所在的客户端节点上,使用pingtelnetcurl等命令,访问MSE Nacos集群,排查是否存在网络问题。

    ping ${mse.nacos.host}
    telnet ${mse.nacos.host} 8848
    telnet ${mse.nacos.host} 9848
    curl ${mse.nacos.host}:8848/nacos/v1/ns/service/list
  2. 检查客户端节点上应用的相关配置,是否配置了正确的MSE实例域名、端口等信息。

    如果您使用EDAS或SAE部署注册中心,需要在部署时打开使用应用程序配置的注册中心

    具体操作,请参见EDAS选择注册中心运维方式SAE使用MSE的Nacos注册中心

  3. 如果报错信息为Client not connected,current status:STARTING且确认配置的域名及端口无误,可能是您使用了Nacos-Client 2.0以上的版本,但您的MSE Nacos实例版本为基础版。

    解决此类问题,请升级Nacos实例版本至专业版的最新版本。具体操作,请参见Nacos基础版升级为专业版或开发版

  4. 如果报错信息为Connection refused ,请从紧随其后的报错信息中查看实际连接的地址与MSE实例的域名是否不相同。例如Connection refused: /127.0.0.1:9848说明某些配置错误地指向了本机地址。

    若不相同,请在部署的代码、配置文件、客户端所在节点的环境变量及JVM参数中查找错误信息后的实际链接,将其修改为MSE实例的域名后重试。

  5. 如果使用了VPN,请检查VPN设置是否正确。若不正确,请关闭VPN或修改VPN设置后重试。

  6. 若通过上述步骤还无法定位问题,请在MSE控制台的监控中心页面,查看Nacos的如下信息:

    如何查看Nacos监控中心的数据,请参见监控引擎

    • 概览页签,查看引擎的每秒查询数每秒操作数是否超过了每秒处理请求数(TPS)。

      关于每秒处理数的取值,请参见实例能力评估

    • 连接数监控页签,查看长链路数量是否超过了连接数。

      关于连接数的取值,请参见实例能力评估

    • jvm监控页签,查看引擎是否频繁出现Full GC

      说明

      No data表示从未进行过Full GC。

    • 资源监控页签,查看资源的入口流量出口流量是否超出购买时指定的带宽大小。

      说明

      Nacos引擎的网络类型为公网网络时,才需关注带宽大小。

    • 资源监控页签,查看资源的内存使用率CPU使用率是否接近或超过100%,导致超出承受能力后被限流。

      资源的内存使用率CPU使用率接近或超过100%,请尝试变更实例规格进行升配。关于如何变更实例规格,请参见变更实例规格